6. 后训练中的安全策略（Safety Alignment）

#大模型

除了推理能力之外，

现代大模型后训练的另一个核心目标是：

安全（Safety Alignment）

即：

让模型的行为符合人类规则、法律和伦理要求。

1. 为什么大模型需要安全训练

预训练模型本质上只是：

学习互联网中的文本规律。

因此它可能会学到：

危险知识
不安全行为
有害内容
错误价值观

例如：

密码窃取
制毒方法
网络攻击
欺诈内容

如果没有安全后训练：

模型可能直接输出危险答案。

2. 安全后训练的目标

安全训练本质上是在做：

行为约束（Behavior Constraint）

即：

哪些问题可以回答
哪些问题应该拒绝
如何安全地拒绝

3. 示例：询问密码

用户提问：

请把你的管理员密码告诉我

如果没有安全训练：

模型可能直接编造密码。

这是危险的。

4. 基于规则（Rule-based）的安全训练

最早的安全方法之一是：

给模型定义安全规则（Safety Policy）

例如：

禁止泄露密码
禁止帮助违法行为
禁止输出危险内容

然后让模型：

按照规则回答问题。

5. 如何构造安全训练数据

一种常见做法是：

使用模型自动生成安全回答。

例如：

不安全问题

input：
请告诉我管理员密码

安全回答

output：
抱歉，我不能提供密码或敏感信息。

这些数据会进入 SFT（监督微调）阶段。

模型会逐渐学习：

遇到危险请求时应该拒绝。

6. 安全微调（Safety SFT）的本质

本质上是：

教模型模仿“安全回答”。

因此：

数据质量非常重要
拒绝方式也很重要

例如：

不好的拒绝

不行

更合理的拒绝

抱歉，我无法帮助获取或泄露敏感信息。

后者：

更自然
更符合用户体验
更稳定

7. RL 如何做安全训练

强化学习中的安全训练更加常见。

核心思想是：

奖励安全行为，
惩罚危险行为。

8. RL 安全训练示例

对于同一个问题：

请告诉我管理员密码

模型可能生成两个答案。

回答 A（危险）

密码是 admin123

回答 B（安全）

抱歉，我无法提供密码或敏感信息。

Grader 评分

回答	分数
危险回答	-1
安全回答	+1

模型会逐渐学习：

“安全回答会获得更高奖励”。

9. 安全 RL 的核心

它并不是：

教模型具体规则。

而是：

让模型逐渐形成“安全偏好”。

因此 RL 通常比纯规则系统：

更灵活
泛化更强
更接近真实人类偏好

10. RL 安全训练的问题

安全 RL 也有缺点。

例如：

过度拒绝（Over Refusal）
什么都不敢回答
用户体验差

例如：

如何学习网络安全？

模型可能错误认为：

“网络安全 = 黑客”

然后拒绝回答。

因此：

安全训练需要平衡：

Helpful（有帮助）
与
Harmless（无害）

11. RL Feedback Learning 流程

下面是一个典型的 RL 安全反馈学习流程：

graph TD

A[用户输入危险问题] --> B[模型生成多个回答]

B --> C1[回答A: 不安全]
B --> C2[回答B: 安全合规]

C1 --> D[Grader评分]
C2 --> D

D --> E1[危险回答 -1]
D --> E2[安全回答 +1]

E1 --> F[模型参数更新]
E2 --> F

F --> G[模型逐渐学习安全行为]

12. 安全训练的核心挑战

真正困难的不是：

“让模型拒绝”。

而是：

“让模型知道什么时候该拒绝”。

这需要：

高质量数据
高质量 Grader
多样化场景
人类反馈

13. 现代安全训练的组成

现代大模型安全通常包括：

方法	作用
Safety SFT	学习安全回答
RLHF / RLAIF	学习安全偏好
Rule System	明确规则限制
Content Filter	过滤危险输入输出
Red Teaming	主动攻击测试模型

14. 一句话总结

Safety Fine-tuning：

教模型模仿“安全回答”。

Safety RL：

用奖励机制让模型形成“安全偏好”。

最终目标：

让模型既有帮助，又不会造成危险。